In [43]:
display(HTML("<style>.container { width:60% !important; }</style>"))

Przygotowanie modeli i krzywych CP.

Zmienna objaśniana (wydatki na opiekę zdrowotną) została przekształcona z wykorzystaniem logarytmu o podstawie 3 (blisko logarytmu naturalnego, ale łatwiejsze w interpretacji). W związku z tym interpretacja jest następująca - jeśli zmiana jakiegoś wejścia spowodowała wzrost predykcji o $n$ tzn. że wydatki na OZ wzrosły o $3^n$.

Model Gradient Boosting Regressor

In [24]:
 
In [25]:
 
Out[25]:
REGION AGE31X GENDER RACE3 MARRY31X EDRECODE FTSTU31X ACTDTY31 HONRDC31 RTHLTH31 MNHLTH31 HIBPDX CHDDX ANGIDX MIDX OHRTDX STRKDX EMPHDX CHBRON31 CHOLDX CANCERDX DIABDX JTPAIN31 ARTHDX ARTHTYPE ASTHDX ADHDADDX PREGNT31 WLKLIM31 ACTLIM31 SOCLIM31 COGLIM31 DFHEAR42 DFSEE42 ADSMOK42 PCS42 MCS42 K6SUM42 PHQ242 EMPST31 POVCAT15 INSCOV15 INCOME_M PERSONWT
8 1 35 1.0 0.0 1 16 -1 2 2 2 3 2 2 2 2 1 2 2 2 1 2 2 2 2 -1 2 -1 2 2 2 2 2 2 2 2 54.3 43.43 4 1 1 5 1 56052.0 17508.950341
In [26]:
 
Calculating ceteris paribus!: 100%|████████████████████████████████████████████████████| 44/44 [00:00<00:00, 57.91it/s]
In [27]:
 
Out[27]:
REGION AGE31X GENDER RACE3 MARRY31X EDRECODE FTSTU31X ACTDTY31 HONRDC31 RTHLTH31 MNHLTH31 HIBPDX CHDDX ANGIDX MIDX OHRTDX STRKDX EMPHDX CHBRON31 CHOLDX CANCERDX DIABDX JTPAIN31 ARTHDX ARTHTYPE ASTHDX ADHDADDX PREGNT31 WLKLIM31 ACTLIM31 SOCLIM31 COGLIM31 DFHEAR42 DFSEE42 ADSMOK42 PCS42 MCS42 K6SUM42 PHQ242 EMPST31 POVCAT15 INSCOV15 INCOME_M PERSONWT
90 4 83 0.0 0.0 2 16 -1 4 1 4 3 2 2 2 2 2 2 2 2 1 1 2 1 1 3 2 -1 -1 2 2 2 2 1 2 -1 -1.0 -1.0 -1 -1 4 4 1 9000.0 0.0

W pierwszym przypadku, dla wybranej obserwacji, zwiększenie zarobków przy zachowaniu pozostałych wejść niezmienionych powoduje wzrost wydatków na opiekę zdrowotną. Obserwacja ta dotyczy pacjenta w wieku 35 lat. Można przypuszczać, że w takim wieku każdy ma jakieś schorzenia - mniejsze lub większe. Ci mniej zarabiający zajmują się tymi, które najbardziej im dolegają. Ci, którzy zarabiają więcej, leczą się bardziej kompleksowo - wydając przy tym więcej pieniędzy. Dodatkowo, lepiej zarabiający zwykle prowadzą bardziej intensywny tryb życia - krócej śpią, mają więcej stresów, są narażeni na kontuzje ze względu na wykonywanie prac niebezpiecznych itd. To przekłada się na częstsze i bardziej kosztowne wizyty u specjalistów. W przypadku ankietowanego z drugiej obserwacji, zwiększenie wejścia odpowiadającego za zarobki przy pozostałych wejściach stalych powoduje niewielki spadek wydatków na OZ. Ankietowany ma 83 lata, być może w tym wieku ta zmienna nie jest aż tak istotna.

Model liniowy

In [39]:
 
Calculating ceteris paribus!: 100%|████████████████████████████████████████████████████| 44/44 [00:01<00:00, 43.80it/s]
In [40]:
 
Calculating ceteris paribus!: 100%|████████████████████████████████████████████████████| 44/44 [00:00<00:00, 60.18it/s]

Dla modelu liniowego krzywe Ceteris Paribus są takie same jeśli chodzi o współczynnik nachylenia, róznią się o stałą (która z kolei wynika z wartości pozostałych zmiennych dla danej obserwacji). Próżno więc szukać obserwacji, dla których krzywe CP mają odmienny charakter jakościowy. Spodziewałem sie tego, ale chciałem to zobaczyć na własne oczy, żeby potwierdzić rozumienie i dlatego wybrałem model liniowy.